메뉴

#LLM 한계

TD
The Decoder 6일 전
IMP 8

조지 핫츠 "코딩 에이전트, 소프트웨어 개발 최악의 실수 될 것"

유명 해커 조지 핫츠가 6개월간의 테스트 끝에 코딩 에이전트가 소프트웨어 개발 업계에서 가장 비용이 많이 드는 실수가 될 것이라고 경고했습니다. 그는 LLM이 단순히 코드의 통계적 분포를 모방하여 찾기 힘든 미묘한 오류를 만들어낼 뿐이라며 얀 르쿤 등과 같은 회의론자의 편에 섰습니다. 반면 안드레이 카파시 등은 코드의 질이 떨어지더라도 생산성이 극대화된다며 코딩 에이전트의 긍정적인 미래를 강조하며 AI 업계의 의견이 첨예하게 엇갈리고 있습니다.

AI 코딩 에이전트 조지 핫츠 LLM 한계
MR
MIT Tech Review 9일 전
IMP 6

AI는 세상을 이해하는 법을 배울 수 있을까?

현재 AI 업계는 대형 언어 모델(LLM)의 한계를 극복하고 외부 물리적 세계를 이해하는 '세계 모델(World Models)' 개발에 주력하고 있습니다. 본 웨비나에서는 MIT 테크놀로지 리뷰의 편집진이 AI가 어떻게 물리적 환경과 상호작용하고 이해할 수 있게 될지 심도 있게 논의합니다.

세계 모델 LLM 한계 MIT 테크놀로지 리뷰
MR
MIT Tech Review 33일 전
IMP 8

AI 과대광고와 실제 수익 사이의 빈칸

현재 AI 산업은 기술을 구축하고 혁신을 약속하지만, 그 목표를 어떻게 달성할지에 대한 구체적인 실행 방안(2단계)이 부족한 상태입니다. 최근 연구들은 AI가 여전히 복잡한 실무 작업에서 한계를 보이며, 기존의 업무 프로세스와 결합하는 과정에서 오히려 효율성을 떨어뜨릴 수 있음을 지적합니다. 이는 AI에 대한 맹목적인 기대를 경계하고 실질적인 작업 환경 내 AI 통합 전략을 고민해야 함을 시사합니다.

AI 트렌드 비즈니스 전략 LLM 한계
LL
r/LocalLLaMA 34일 전
IMP 8

SWE-bench, 오염으로 사실상 한계 도달

오래전부터 코딩 AI 성능의 표준이었던 벤치마크 SWE-bench Verified가 데이터 오염 문제와 불량 테스트 케이스로 인해 최신 프론티어 모델의 코딩 능력을 더 이상 제대로 측정하지 못한다는 분석이 나왔습니다. 평가 데이터가 모델 학습에 노출되어 실력 향상이 아닌 사전 지식 암기로 점수가 올라가는 문제가 발생하고 있습니다. 이에 따라 업계는 새로운 대체 평가 지표인 SWE-bench Pro 사용을 권장하고 있습니다.

벤치마크 오염 코딩 AI SWE-bench
MR
MIT Tech Review 39일 전
IMP 8

AI의 다음 도약, '세계 모델'의 부상

현재 AI는 디지털 영역을 정복했지만 물리적 세계를 이해하는 데는 한계가 있습니다. 이를 극복하기 위해 구글 딥마인드, 스탠퍼드 이비 리 교수, 얀 르쿤 등 AI 거장들이 물리적 환경을 시뮬레이션하고 예측하는 '세계 모델(World Model)' 연구에 본격적으로 나섰습니다. 세계 모델은 기존 대형 언어 모델(LLM)의 취약한 세계 인식 능력을 극복하고, 향후 로봇 공학과 자율 주행 등 물리적 환경 상호작용을 필요로 하는 AI 에이전트의 혁신을 이끌 핵심 기술로 평가받고 있습니다.

세계 모델 LLM 한계 로봇 공학
MR
MIT Tech Review 47일 전
IMP 8

AI에 대한 평가가 극명하게 엇갈리는 이유

스탠퍼드 대학의 연례 AI 보고서는 미국의 압도적인 데이터센터 인프라와 TSMC에 의존하는 공급망의 취약성 등 핵심 통계를 제시합니다. 특히 최근 AI 생태계의 가장 큰 특징은 전문가와 일반 대중 간의 인식 격차가 매우 크다는 점입니다. 코딩 등 기술적 작업에 매일 최신 AI를 사용하는 파워 유저는 기술의 발전에 압도되지만, 일반적인 용도로 무료 버전을 사용하는 대중은 여전히 어리석은 실수를 하는 AI에 실망하는 등 사용 경험의 차이가 극명한 갈림길에 서 있습니다.

AI 인식 격차 스탠퍼드 AI 보고서 코딩 AI